对网络规模数据进行培训可能需要几个月的时间。但是,在已经学习或不可学习的冗余和嘈杂点上浪费了很多计算和时间。为了加速训练,我们引入了可减少的持有损失选择(Rho-loss),这是一种简单但原则上的技术,它大致选择了这些训练点,最大程度地减少了模型的概括损失。结果,Rho-loss减轻了现有数据选择方法的弱点:优化文献中的技术通常选择“硬损失”(例如,高损失),但是这种点通常是嘈杂的(不可学习)或更少的任务与任务相关。相反,课程学习优先考虑“简单”的积分,但是一旦学习,就不必对这些要点进行培训。相比之下,Rho-Loss选择了可以学习的点,值得学习的,尚未学习。与先前的艺术相比,Rho-loss火车的步骤要少得多,可以提高准确性,并加快对广泛的数据集,超参数和体系结构(MLP,CNNS和BERT)的培训。在大型Web绑带图像数据集服装1M上,与统一的数据改组相比,步骤少18倍,最终精度的速度少2%。
translated by 谷歌翻译
高分辨率遥感图像用于广泛的任务,包括对象的检测和分类。然而,高分辨率图像昂贵,而较低的分辨率图像通常是可自由的可用的,并且可以由公众用于社会良好应用范围。为此,我们使用从Spacenet 7挑战的PlanetsCope图像策划多个频谱多图像超分辨率数据集作为高分辨率参考和与低分辨率图像相同的图像的多个Sentinel-2重新定位。我们介绍了将多图像超分辨率(MISR)应用于多光谱遥感图像的第一个结果。此外,我们还将辐射级一致性模块引入MISR模型,以保持哨声-2传感器的高辐射分辨率。我们表明MISR优于一系列图像保真度指标的单图像超分辨率和其他基线。此外,我们对建筑描绘的多图像超分辨率的效用进行了第一次评估,显示利用多个图像导致这些下游任务中的更好的性能。
translated by 谷歌翻译
我们介绍了Goldilocks Selection,这是一种用于更快的模型训练的技术,该技术选择了一系列“恰到好处”的训练点。我们提出了一个信息理论采集函数 - 可还原验证损失 - 并使用小的代理模型-GoldiProx进行计算,以有效地选择培训点,以最大程度地提高有关验证集的信息。我们表明,通常在优化文献中选择的“硬”(例如高损失)点通常是嘈杂的,而“简单”(例如低噪声)样本通常优先考虑课程学习提供更少的信息。此外,具有不确定标签的点(通常是由主动学习的目标)往往与任务相关。相比之下,Goldilocks选择选择了“恰到好处”的点,并且从经验上优于上述方法。此外,选定的序列可以转移到其他体系结构。从业者可以共享并重复使用它,而无需重新创建它。
translated by 谷歌翻译
Driving through pothole infested roads is a life hazard and economically costly. The experience is even worse for motorists using the pothole filled road for the first time. Pothole-filled road networks have been associated with severe traffic jam especially during peak times of the day. Besides not being fuel consumption friendly and being time wasting, traffic jams often lead to increased carbon emissions as well as noise pollution. Moreover, the risk of fatal accidents has also been strongly associated with potholes among other road network factors. Discovering potholes prior to using a particular road is therefore of significant importance. This work presents a successful demonstration of sensor-based pothole mapping agent that captures both the pothole's depth as well as its location coordinates, parameters that are then used to generate a pothole map for the agent's entire journey. The map can thus be shared with all motorists intending to use the same route.
translated by 谷歌翻译
Computational catalysis is playing an increasingly significant role in the design of catalysts across a wide range of applications. A common task for many computational methods is the need to accurately compute the minimum binding energy - the adsorption energy - for an adsorbate and a catalyst surface of interest. Traditionally, the identification of low energy adsorbate-surface configurations relies on heuristic methods and researcher intuition. As the desire to perform high-throughput screening increases, it becomes challenging to use heuristics and intuition alone. In this paper, we demonstrate machine learning potentials can be leveraged to identify low energy adsorbate-surface configurations more accurately and efficiently. Our algorithm provides a spectrum of trade-offs between accuracy and efficiency, with one balanced option finding the lowest energy configuration, within a 0.1 eV threshold, 86.63% of the time, while achieving a 1387x speedup in computation. To standardize benchmarking, we introduce the Open Catalyst Dense dataset containing nearly 1,000 diverse surfaces and 87,045 unique configurations.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
尽管自我监督的学习技术通常用于通过建模多种观点来从未标记的数据中挖掘隐性知识,但尚不清楚如何在复杂且不一致的环境中执行有效的表示学习。为此,我们提出了一种方法,特别是一致性和互补网络(Coconet),该方法利用了严格的全局视图一致性和局部跨视图互补性,以维护正则化,从而从多个视图中全面学习表示形式。在全球阶段,我们认为关键知识在观点之间隐含地共享,并增强编码器以从数据中捕获此类知识可以提高学习表示表示的可区分性。因此,保留多种观点的全球一致性可确保获得常识。 Coconet通过利用基于广义切成薄片的Wasserstein距离利用有效的差异度量测量来对齐视图的概率分布。最后,在本地阶段,我们提出了一个启发式互补性因素,该因素是跨观看歧视性知识的,它指导编码者不仅要学习视图的可辨别性,而且还学习跨视图互补信息。从理论上讲,我们提供了我们提出的椰子的基于信息理论的分析。从经验上讲,为了研究我们方法的改善,我们进行了足够的实验验证,这表明椰子的表现优于最先进的自我监督方法,这证明了这种隐含的一致性和互补性可以增强正则化的能力潜在表示的可区分性。
translated by 谷歌翻译
我们提出了一种从图像中推断人类对象相互作用的不同3D模型的方法。考虑到人类如何与单个2D图像中复杂场景中的对象相互作用的推理是一项具有挑战性的任务,鉴于由于通过投影而导致信息丢失引起的歧义。此外,建模3D相互作用需要对各种对象类别和交互类型的概括能力。我们提出了一种对相互作用的动作条件建模,使我们能够在接触区域或3D场景几何形状上推断人类和物体的不同3D布置。我们的方法从大语言模型(例如GPT-3)中提取高级常识性知识,并将其应用于对人类对象相互作用的3D推理。我们的关键见解是从大语言模型中提取的先验可以帮助从纹理提示中推理人类对象联系人。我们定量评估大型人类对象交互数据集上推断的3D模型,并显示我们的方法如何导致更好的3D重建。我们进一步评估方法对真实图像的有效性,并证明其对互动类型和对象类别的普遍性。
translated by 谷歌翻译
我们介绍了TemPCLR,这是一种针对3D手重建的结构化回归任务的新的时代对比学习方法。与以前的手部姿势估计方法相抵触方法不同,我们的框架考虑了其增强方案中的时间一致性,并说明了沿时间方向的手部姿势的差异。我们的数据驱动方法利用了未标记的视频和标准CNN,而无需依赖合成数据,伪标签或专业体系结构。我们的方法在HO-3D和Freihand数据集中分别将全面监督的手部重建方法的性能提高了15.9%和7.6%,从而确立了新的最先进的性能。最后,我们证明了我们的方法会随着时间的推移产生更平滑的手部重建,并且与以前的最新作品相比,对重型的闭塞更为强大,我们在定量和定性上表现出来。我们的代码和模型将在https://eth-ait.github.io/tempclr上找到。
translated by 谷歌翻译
自然语言处理的最新进展在文本分析和语言理解模型中产生了许多令人兴奋的发展。但是,这些模型也可以用于跟踪人们,引起严重的隐私问题。在这项工作中,我们调查了个人可以在使用社交媒体平台时避免被这些模型检测到的事情。我们将调查在两项曝光危险任务,立场检测和地理标记中进行。我们探索了各种用于修改文本的简单技术,例如用显着词,​​释义和添加虚拟社交媒体帖子插入错别字。我们的实验表明,基于BERT的模型的性能因错别字而被罚款以进行立场检测,但不受释义的影响。此外,我们发现错别字对最先进的地理参考模型的影响最小,因为它们对社交网络的依赖增加了。但是,我们表明用户可以通过与不同的用户互动来欺骗这些模型,从而将其绩效降低了近50%。
translated by 谷歌翻译